python - urllib2 读取到 Unicode
全部标签 我听说过一种叫做AIML的编程语言,它可以用来对智能机器人进行编程。我是一名网络开发人员,有一个使用Python2.7构建的网络爬虫,并已将维基百科编入索引......所以我想用python构建一个应答引擎,它会使用一个字符串变量(这是一个包含整个维基百科的巨大变量)作为信息来源并使用AI来回答...最后,我想把它放在我学校的网站上......那么我可以在AIML中做到这一点吗?稍后我也想修改它,以便为我的现场分数回答以下问题:“~someperson~的年龄是多少?”等。为此,我将发送我的网络爬虫来索引一些得分页面等。我可以在AIML中编写这种应答代理程序吗?如果是,请提供教程链接,
我想获得一个XML元素列表,首先基于标记名,其次基于属性值。我使用的是xml.dom库和python2.7。虽然完成第一步很容易:fromxml.domimportminidomxmldoc=minidom.parse(r"C:\File.xml")PFD=xmldoc.getElementsByTagName("PFD")PNT=PFD.getElementsByTagName("PNT")我一直在四处寻找,但找不到第二步的解决方案。有没有像.getElementsByAttributeValue这样的东西可以给我一个列表来使用?如果XML看起来像这样需要列表中A="1"的所有PNT
我在Python中使用XMLminidom(xml.dom.minidom),但XML中的任何错误都会终止解析器。是否可以忽略它们,例如浏览器?我正在尝试用Python编写浏览器,但如果标签不完全兼容,它只会抛出异常。 最佳答案 有一个图书馆叫BeautifulSoup,我想这就是你要找的。当您尝试解析无效的XML时,普通的XML解析器将无法工作。BeautifulSoup更容错,它仍然可以从无效的XML中提取信息。BeautifulSoupisaPythonHTML/XMLparserdesignedforquickturna
如果这3项,我有一个列表:标题和链接以及基于html的描述,我正在寻找可以提供这3项并创建rssxml页面的库或外部工具。有这种东西吗? 最佳答案 我建议您使用模板并将项目列表提供给模板。示例Jinja2模板(Atom,不是RSS,但你明白了),假设项目是三元组(标题、链接、html):Author'snameFeedtitle{%foriteminitems%}{{item[0]}}{{item[2]}}{%endfor%}向模板提供内容并输出结果的代码:importjinja2env=jinja2.Environment(loa
我将像这样传递xml文件:File1.PostedFile.InputStream//readingxmlfile.....publicstaticvoidreadXMLOutput(Streamstream){System.Xml.Linq.XDocumentxml=System.Xml.Linq.XDocument.Load(stream);varquery=frompinxml.Element("ste").Element("Application")//where(int)p.Element("Id")==1selectPage;foreach(varrecordinquery
当我想使用BeautifulSoup库在Python中解析XML文档时,我遇到了一些问题。我要解析的XML文档:2011-10-1009:00:002011-10-1709:00:003500020000正如你在上面看到的,标签有点奇怪。在我看来,that(tag)不是标准的XML形式,对吧?我该如何解析这种糟糕的形式? 最佳答案 您不需要BeautifulStoneSoup或lxml。Python自带的电池可以很好地完成这项工作,而且您的XML似乎没有任何不合规之处。>>>content='''\............2011-
我想在VBA中获取单个节点的属性,但无法使用DOM对其进行管理XML如下所示:我基本上只是想获取ID属性的值。任何帮助将不胜感激。 最佳答案 尝试:(包括对MicrosoftXMLv3的引用,我将您的xml保存到我桌面上的一个文件中)DimxmlDocAsDOMDocument30SetxmlDoc=NewDOMDocument30xmlDoc.Load("C:\users\jon\desktop\test.xml")DimidAsStringid=xmlDoc.SelectSingleNode("//GetUserInfo/Use
我有一个包含这样节点的xml文档,我想要做的是为文档中存在的每个ITEM节点获取所有id的属性值。那么,我该怎么做呢?编辑:我试过这种方式,但没有用:XmlDocumentDoc=newXmlDocument();Doc.Load("example.xml");XmlNodeListnodeList=Doc.SelectNodes("/ITEM");foreach(XmlNodenodeinnodeList){stringid=node.Attributes["id"].Value;Console.WriteLine(id);} 最佳答案
如果我尝试解析损坏的XML,异常会显示行号。有没有办法显示XML上下文?我想查看损坏部分前后的xml标记。例子:importxml.etree.ElementTreeasETtree=ET.fromstring('')异常(exception):Traceback(mostrecentcalllast):File"tmp/foo.py",line2,intree=ET.fromstring('')File"/usr/lib/python2.7/xml/etree/ElementTree.py",line1300,inXMLparser.feed(text)File"/usr/lib/p
所以我正在读取一个长度未知的xml文件,并将每个元素读入一个列表结构中。现在,一旦我读到文件的末尾,我就会继续阅读,这会导致异常。现在我只是捕捉到这个异常并继续我的生活,但是有没有更简洁的方法来做到这一点?try{while(!textReader.EOF){//UsedtostoreinfofromeachcommandastheyarereadfromthexmlfileATAPassThroughCommandscommand=newATAPassThroughCommands();//thefollowingisjustcommandsbeingreadandtheircont